我们提出了一个新的图神经网络(GNN)模块,该模块基于最近提出的几何散射变换的松弛,该变换由图形小波滤波器组成。我们可学习的几何散射(腿)模块可以使小波的自适应调整能够鼓励乐队通道特征在学习的表示中出现。与许多流行的GNN相比,我们的腿部模块在GNN中的结合能够学习长期图形关系,这些GNN通常依赖于邻居之间的平滑度或相似性来编码图形结构。此外,与竞争性GNN相比,其小波先验会导致简化的架构,学到的参数明显少得多。我们证明了基于腿的网络在图形分类基准上的预测性能,以及在生化图数据探索任务中学到的功能的描述性质量。我们的结果表明,基于腿部的网络匹配或匹配流行的GNN,以及在许多数据集上,尤其是在生化域中的原始几何散射结构,同时保留了手工制作的(非学习)几何散射的某些数学特性。
translated by 谷歌翻译
我们在点云数据上引入了一种新的局部曲率量度,称为扩散曲率。我们的措施使用扩散图的框架,包括数据扩散操作员,结构点云数据,并根据从数据的点或区域开始的随机步行的懒惰定义局部曲率。我们表明,这种懒惰直接与Riemannian几何形状的体积比较结果有关。然后,我们使用基于点云数据扩散图的神经网络估计将此标量曲率概念扩展到整个二次形式。我们展示了关于玩具数据,单细胞数据以及估计神经网络损失景观本地Hessian矩阵的应用。
translated by 谷歌翻译
We introduce a general theoretical framework, designed for the study of gradient optimisation of deep neural networks, that encompasses ubiquitous architectural choices including batch normalisation, weight normalisation and skip connections. We use our framework to conduct a global analysis of the curvature and regularity properties of neural network loss landscapes induced by normalisation layers and skip connections respectively. We then demonstrate the utility of this framework in two respects. First, we give the only proof of which we are presently aware that a class of deep neural networks can be trained using gradient descent to global optima even when such optima only exist at infinity, as is the case for the cross-entropy cost. Second, we verify a prediction made by the theory, that skip connections accelerate training, with ResNets on MNIST, CIFAR10, CIFAR100 and ImageNet.
translated by 谷歌翻译
量化在隐式/坐标神经网络中的作用仍未完全理解。我们注意到,在训练过程中使用规范的固定量化方案在训练过程中的网络重量分布发生变化,在训练过程中会导致低速表现不佳。在这项工作中,我们表明神经体重的不均匀量化会导致显着改善。具体而言,我们证明了群集量化可以改善重建。最后,通过表征量化和网络容量之间的权衡,我们证明使用二进制神经网络重建信号是可能的(而记忆效率低下)。我们在2D图像重建和3D辐射场上实验证明了我们的发现;并表明简单的量化方法和体系结构搜索可以使NERF的压缩至小于16KB,而性能损失最小(比原始NERF小323倍)。
translated by 谷歌翻译
BERT4REC是基于变压器体系结构的顺序推荐的有效模型。在原始出版物中,Bert4Rec声称比其他可用的顺序推荐方法优越(例如Sasrec),现在经常将其用作顺序建议的最先进的基线。但是,并非所有随后的出版物都证实了这一结果,并提出了其他模型,这些模型被证明在有效性方面表现优于Bert4Rec。在本文中,我们会系统地回顾所有将Bert4Rec与另一个受欢迎的基于变压器的模型(即Sasrec)进行比较的出版物,并表明BERT4REC结果在这些出版物中不一致。为了了解这种不一致的原因,我们分析了BERT4REC的可用实现,并表明我们在使用默认配置参数时未能重现原始Bert4Rec出版物的结果。但是,与默认配置相比,如果训练更长的时间(最高30倍),我们可以用原始代码复制报告的结果。我们还根据拥抱面孔变压器库提出了自己的BERT4REC实施,我们证明了在3个OUT 4数据集中重复了最初报告的结果,同时需要减少95%的培训时间来收敛。总体而言,从我们的系统审查和详细的实验中,我们得出结论,Bert4Rec确实确实表现出了序列建议的最新有效性,但只有在经过足够的时间进行培训时。此外,我们表明,我们的实现可以通过调整拥抱面孔库中可用的其他变压器体系结构(例如,使用Deberta提供的散布注意力或更大的隐藏层大小参见Albert)。
translated by 谷歌翻译
许多现代的顺序推荐系统使用深层神经网络,可以有效地估计项目的相关性,但需要大量时间进行训练。慢速培训增加了费用,阻碍了产品开发时间表,并防止该模型定期更新以适应不断变化的用户偏好。培训这样的顺序模型涉及对过去的用户互动进行适当采样以创建现实的培训目标。现有的培训目标有局限性。例如,下一个项目预测永远不会将序列的开头用作学习目标,从而可能丢弃有价值的数据。另一方面,Bert4Rec使用的项目掩盖仅与顺序建议的目标无关。因此,它需要更多的时间来获得有效的模型。因此,我们提出了一个基于新颖的序列训练目标采样,以解决这两个局限性。我们将我们的方法应用于最近和最新的模型架构,例如Gru4Rec,Caser和Sasrec。我们表明,通过我们的方法增强的模型可以实现超过或非常接近bert4rec的状态的性能,但训练时间却少得多。
translated by 谷歌翻译
表征过度参数化神经网络的显着概括性能仍然是一个开放的问题。在本文中,我们促进了将重点转移到初始化而不是神经结构或(随机)梯度下降的转变,以解释这种隐式的正则化。通过傅立叶镜头,我们得出了神经网络光谱偏置的一般结果,并表明神经网络的概括与它们的初始化密切相关。此外,我们在经验上使用实用的深层网络巩固了开发的理论见解。最后,我们反对有争议的平米尼猜想,并表明傅立叶分析为理解神经网络的概括提供了更可靠的框架。
translated by 谷歌翻译
这项工作与科学机器学习中的以下基本问题有关:基于深度学习的方法是否可以解决无噪声逆问题到近乎完美的准确性?首次提供了积极的证据,重点是原型计算机断层扫描(CT)设置。我们证明,迭代的端到端网络方案可以实现接近数值精度的重建,与经典的压缩传感策略相当。我们的结果是基于我们对最近的AAPM DL-SPARSE-VIEW CT挑战的获胜提交的基础。它的目标是确定用数据驱动技术解决稀疏视图CT逆问题的最新技术。挑战设置的特定困难是,参与者的精确前进模型仍然未知。因此,我们方法的关键特征是最初在数据驱动的校准步骤中估算未知的粉丝几何形状。除了对我们的方法的深入分析外,我们还证明了其在开放式现实世界数据集Lodopab CT上的最先进性能。
translated by 谷歌翻译
本文介绍了用于合成近红外(NIR)图像生成和边界盒水平检测系统的数据集。不可否认的是,诸如Tensorflow或Pytorch之类的高质量机器学习框架以及大规模的Imagenet或可可数据集借助于加速GPU硬件,已将机器学习技术的极限推向了数十多年。在这些突破中,高质量的数据集是可以在模型概括和数据驱动的深神经网络的部署方面取得成功的基本构件之一。特别是,综合数据生成任务通常比其他监督方法需要更多的培训样本。因此,在本文中,我们共享从两个公共数据集(即Nirscene和Sen12ms)和我们的新颖NIR+RGB甜椒(辣椒(辣椒)数据集)重新处理的NIR+RGB数据集。我们定量和定性地证明了这些NIR+RGB数据集足以用于合成NIR图像生成。对于NIRSCENE1,SEN12MS和SEWT PEPPER数据集,我们实现了第11.36、26.53、26.53、26.53和40.15的距离(FID)。此外,我们发布了11个水果边界盒的手动注释,可以使用云服务将其作为各种格式导出。四个新添加的水果[蓝莓,樱桃,猕猴桃和小麦]化合物11新颖的边界盒数据集,在我们先前的DeepFruits项目中提出的作品[Apple,Appsicum,Capsicum,Capsicum,Mango,Orange,Rockmelon,Strawberry]。数据集的边界框实例总数为162K,可以从云服务中使用。为了评估数据集,YOLOV5单阶段检测器被利用并报告了令人印象深刻的平均水平前期,MAP [0.5:0.95]的结果为[min:0.49,最大:0.812]。我们希望这些数据集有用,并作为未来研究的基准。
translated by 谷歌翻译
我们提供了在Relu神经网络层的动作下不变的概率分布系列的完整表征。在贝叶斯网络培训期间出现对这些家庭的需求或对训练有素的神经网络的分析,例如,在不确定量化(UQ)或解释的人工智能(XAI)的范围内。我们证明,除非以下三个限制中的至少一个限制,否则不可能存在不变的参数化分布族:首先,网络层具有一个宽度,这对于实际神经网络是不合理的。其次,家庭的概率措施具有有限的支持,基本上适用于采样分布。第三,家庭的参数化不是局部Lipschitz连续,这排除了所有计算可行的家庭。最后,我们表明这些限制是单独必要的。对于三种情况中的每一个,我们可以构建一个不变的家庭,究竟是一个限制之一,但不是另一个。
translated by 谷歌翻译